Claude 4
Opus 4.1
https://gyazo.com/94158948f7aaa8a71c1a60dfd1eb8fc0
Agentic codingが伸びるのは嬉しいが100ドル払わないと使えない
前回(下図)と数字の出し方が違うぞ。どういうこと?
https://gyazo.com/b93660c189c4472f864077101abd2659
AIエージェント構築のための追加のAPI
MCPコネクタ
ファイルAPI
プロンプトキャッシュ(最大1h)
コード実行
https://gyazo.com/d5a460f754d53a30e71fac9e15fa5fdd
o3.icon
Agentic Coding
SWE-bench Verified
計測対象:既存OSSリポジトリのバグ修正パッチを自動生成できるか
基準:①指示=GitHub Issue②モデルが diff を出力③pytest が全部通れば Pass
Agentic Terminal Coding
計測対象:ターミナルをフル操作して複数ステップの作業(ビルド・データDL・サーバ起動など)を完遂できるか
基準:①指示=英語でタスク説明②モデルが bash 操作・エディタ操作を自律実行③同梱の test script が OK なら Pass
Opus 4の方がSonnet4よりだいぶ高い基素.icon
https://gyazo.com/b93660c189c4472f864077101abd2659
https://youtu.be/oqUclC3gqKs